60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里，用户和产品都得到了增长，使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台（Apache Hive 是 Facebook 在2009年贡献给社区的）和 Corona（ Facebook 内部的 MapReduce 实现）进行的。Facebook 还针对包括 Hive 在内的多个内部数据存储，继续

w397090770 5年前 (2019-12-19) 1750℃ 0评论10喜欢

机器学习

来自RISELab实验室解决机器学习新的大数据工具

大家对加州大学伯克利分校的AMPLab可能不太熟悉，但是它的项目我们都有所耳闻——没错，它就是Spark和Mesos的诞生之地。AMPLab是加州大学伯克利分校一个为期五年的计算机研究计划，其初衷是为了理解机器和人如何合作处理和解决数据中的问题——使用数据去训练更加丰富的模型，有效的数据清理，以及进行可衡量的数据扩展。

w397090770 8年前 (2017-02-09) 1320℃ 0评论3喜欢

Hadoop

Hadoop文件系统元数据fsimage和编辑日志edits

　　在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件：[code lang="JAVA"]current/|-- VERSION|-- edits_*|-- fsimage_0000000000008547077|-- fsimage_0000000000008547077.md5`-- seen_txid[/code]　　其中存在大量的以edits开头的文件和少量的以fsimage开头的文件。那么这两种文件到底是什么，有什么用

w397090770 11年前 (2014-03-06) 20457℃ 1评论45喜欢

Web服务

Web服务非功能属性

　　如今，互联网上存在大量功能相同的Web服务，但是它们的非功能属性（Quality of Service，QoS）一般相差很大，以至于用户在选择合适的Web服务时，把服务的QoS作为评判服务好坏的重要指标。QoS并不是在Web服务领域中产生的，它最先用在计算机网络和实时系统的非功能需求中，后来很多领域都引入了QoS指标，而且不同领域所用的QoS

w397090770 12年前 (2013-05-16) 3642℃ 0评论6喜欢

hudi

Apache Hudi 是如何处理小文件的

Apache Hudi 是一种数据湖平台技术，它提供了构建和管理数据湖所需的几个功能。hudi 提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。拥有大量的小文件将使计算更难获得良好的查询性能，因为查询引擎不得不多次打开/读取/关闭文件以执行查询。但是对于流数据湖用例来说，可能每次都只会写入很少的

w397090770 3年前 (2021-08-03) 1067℃ 0评论1喜欢

Linux

Linux 查看物理 CPU 个数、核数、逻辑 CPU 个数

w397090770 3年前 (2021-11-01) 782℃ 0评论3喜欢

wordpress开发

WordPress自定义字段的操作

　　WordPress 的自定义字段就是文章的meta 信息（元信息），利用这个功能，可以扩展文章的功能，是学习WordPress 插件开发和主题深度开发的必备。对自定义字段的操作主要有四种：添加、更新(修改)、删除、获取(值)。　　1、首先自定义字段的添加函数，改函数可以为文章往数据库中添加一个字段：[code lang="php"]<?php add_

w397090770 10年前 (2015-04-30) 3527℃ 0评论8喜欢

Arrow

Apache Arrow：一个跨平台的内存数据交换格式

　　Apache Arrow是Apache基金会下一个全新的开源项目，同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。　　用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分

w397090770 9年前 (2016-03-01) 3893℃ 0评论2喜欢

Spark

Spark 1.1.0正式发布

　　我们期待已久的Spark 1.1.0在美国时间的9月11日正式发布了，官方发布的声明如下：We are happy to announce the availability of Spark 1.1.0! Spark 1.1.0 is the second release on the API-compatible 1.X line. It is Spark’s largest release ever, with contributions from 171 developers!This release brings operational and performance improvements in Spark core including a new implementation of the Spark

w397090770 10年前 (2014-09-12) 3799℃ 0评论2喜欢

Git

Git 删除指定 commit

我们在开发过程中，难免会进行一些误操作，比如下面我们提交 723cc1e commit 的时候把 2b27deb 和 0ff665e 不小心也提交到这个分支了。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据0ff665e 是属于其他还没有合并到 master 分支的 MR，所以我们这里肯定不能把它带上来。我们需要把它删了。值得

w397090770 3年前 (2021-07-09) 581℃ 0评论1喜欢

Flink

Flink监控指标名特殊字符解决

和其他大数据系统类似，Flink 内置也提供 metric system 供我们监控 Flink 程序的运行情况，包括了JobManager、TaskManager、Job、Task以及Operator等组件的运行情况，大大方便我们调试监控我们的程序。系统提供的一些监控指标名字有下面几个： metrics.scope.jm 默认值: <host>.jobmanager job manager范围内的所有metrics将会使用这

w397090770 7年前 (2017-08-01) 3118℃ 0评论6喜欢

Beam

盘点2017年晋升为Apache TLP的大数据相关项目

本文主要盘点了 2017 年晋升为 Apache Top-Level Project (TLP) 的大数据相关项目，项目的介绍从孵化器毕业的时间开始排的，一共十二个。Apache Beam: 下一代的大数据处理标准Apache Beam（原名Google DataFlow）是Google在2016年2月份贡献给Apache基金会的Apache孵化项目，被认为是继MapReduce，GFS和BigQuery等之后，Google在大数据处理领域对开源社区的

w397090770 7年前 (2018-01-01) 3480℃ 0评论10喜欢

Spark

Spark 1.6.1正式发布

　　Spark 1.6.1于2016年3月11日正式发布，此版本主要是维护版本，主要涉及稳定性修复，并不涉及到大的修改。推荐所有使用1.6.0的用户升级到此版本。　　Spark 1.6.1主要修复的bug包括：　　1、当写入数据到含有大量分区表时出现的OOM：SPARK-12546　　2、实验性Dataset API的许多bug修复：SPARK-12478, SPARK-12696, SPARK-13101, SPARK-12932　　

w397090770 9年前 (2016-03-11) 3892℃ 0评论5喜欢

Python

Spark1.4中DataFrame功能加强,新增科学和数学函数

　　社区在Spark 1.3中开始引入了DataFrames，使得Apache Spark更加容易被使用。受R和Python中的data frames激发，Spark中的DataFrames提供了一些API，这些API在外部看起来像是操作单机的数据一样，而数据科学家对这些API非常地熟悉。统计是日常数据科学的一个重要组成部分。在即将发布的Spark 1.4中改进支持统计函数和数学函数（statistical and mathem

w397090770 9年前 (2015-06-03) 13966℃ 2评论3喜欢

资料分享

SQL Joins可视化解释

　　SQL Join对于初学者来说是比较难得，Join语法有很多inner的，有outer的，有left的，有时候，对于Select出来的结果集是什么样子有点不是很清楚。下图可以帮助初学者理解它。

w397090770 9年前 (2016-04-09) 28733℃ 0评论3喜欢

Hive

Hive常用语句

显示分区[code lang="sql"]show partitions iteblog;[/code]添加分区[code lang="sql"]ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...; partition_spec: : (partition_column = partition_col_value, partition_column = partition_col_value, ...)ALTER TABLE iteblog ADD PARTITION (dt='2008-08-08') location '/path/to/us/part080

w397090770 9年前 (2015-11-27) 9953℃ 0评论18喜欢

CPP编程

各种排序算法C++模版类实现

闲来无事，于是把常用的排序算法自己写了一遍，也当做是复习一下。[code lang="CPP"]/*************************************************************** * * * * * Date : 2012. 05. 03 * * Author : 397090770 * * Email : wyphao.2007@163.com * * * * * ***************************

w397090770 12年前 (2013-04-04) 3020℃ 0评论3喜欢

Hadoop

Uber 是如何提高 HDFS I/O 利用率的

以较低的硬件成本扩展我们的数据基础设施，同时保持高性能和服务可靠性并非易事。为了适应 Uber 数据存储和分析计算的指数级增长，数据基础设施团队通过结合硬件重新设计软件层，以扩展 Apache Hadoop® HDFS ：HDFS Federation、Warm Storage、YARN 在 HDFS 数据节点上共存，以及 YARN 利用率的提高提高了系统的 CPU 和内存使用效率将多

w397090770 3年前 (2021-10-21) 430℃ 0评论3喜欢

Spark

Spark 1.4中REST API介绍

　　在Spark 1.4中引入了REST API，这样我们可以像Hadoop中REST API一样，很方便地获取一些信息。这个ISSUE在https://issues.apache.org/jira/browse/SPARK-3644里面首先被提出，已经在Spark 1.4加入。　　Spark的REST API返回的信息是JSON格式的，开发者们可以很方便地通过这个API来创建可视化的Spark监控工具。目前这个API支持正在运行的应用程序，也支持

w397090770 9年前 (2015-06-10) 15765℃ 0评论8喜欢

算法

2012腾讯笔试的一道算法题

题目以及要求：把一个字符串的大写字母放到字符串的后面，各个字符的相对位置不变，不能申请额外的空间。我的实现类似冒泡排序。[code lang="CPP"]#include <stdio.h>#include <string.h>// Author: 397090770// E-mail:wyphao.2007@163.com// Blog: // Date: 2012/09/29//题目以及要求：把一个字符串的大写字母放到字符串的后面，//

w397090770 12年前 (2013-04-02) 3908℃ 0评论1喜欢

HBase

Spark读取Hbase中的数据

Spark和Flume-ng整合，可以参见本博客：《Spark和Flume-ng整合》《使用Spark读取HBase中的数据》如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop　　大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如

w397090770 10年前 (2014-06-29) 74987℃ 47评论58喜欢

Kafka

Kafka in Action 下载

《Kafka in Action》于 2022年01月由 Manning 出版， ISBN 为 9781617295232 ，全书 272 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍作者有多年使用 Kafka 的真实世界的经验，这本书的实地感觉真的让它与众不同。---- From the foreword by Jun Rao, Confluent CofounderMaster the wicked-fast Apache Kafka streaming

w397090770 3年前 (2022-03-02) 589℃ 0评论3喜欢

Spark

Spark 2.0技术预览：更容易、更快速、更智能

　　在过去的几个月时间里，我们一直忙于我们所爱的大数据开源软件的下一个主要版本开发工作：Apache Spark 2.0。Spark 1.0已经出现了2年时间，在此期间，我们听到了赞美以及投诉。Spark 2.0的开发基于我们过去两年学到的：用户所喜爱的我们加倍投入；用户抱怨的我们努力提高。本文将总结Spark 2.0的三大主题：更容易、更快速、更智

w397090770 8年前 (2016-05-12) 8788℃ 2评论26喜欢

Hive

Apache Hive 0.13发布，新增ACID特性

　　4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13，这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改：一、执行速度　　用户可以选择基于Tez的查询，基于Tez的查询可以大大提高Hive的查询速度（官网上上可以提升100倍）。下面一些技术对查询速度的提升：　　（1）、Broadcast Joins：和M

w397090770 11年前 (2014-04-25) 8307℃ 1评论1喜欢

Kafka

如何为Kafka集群选择合适的Topics/Partitions数量？

　　这是许多kafka使用者经常会问到的一个问题。本文的目的是介绍与本问题相关的一些重要决策因素，并提供一些简单的计算公式。越多的分区可以提供更高的吞吐量　　首先我们需要明白以下事实：在kafka中，单个patition是kafka并行操作的最小单元。在producer和broker端，向每一个分区写入数据是可以完全并行化的，此时，可

w397090770 8年前 (2016-09-08) 10237℃ 2评论22喜欢

Hadoop

MapReduce数据输入中InputFormat类源码解析

　　在MapReduce作业中的数据输入和输出必须使用到相关的InputFormat和OutputFormat类，来指定输入数据的格式，InputFormat类的功能是为map任务分割输入的数据。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop　　InputFormat类中必须指定Map输入参数Key和Value的数据类型，以及对输入的数据如何进行分

w397090770 9年前 (2015-07-11) 5506℃ 0评论14喜欢

Spark

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就错了。

本资料来自 Workday 的软件开发工程师 Jianneng Li 在 Spark Summit North America 2020 的《On Improving Broadcast Joins in Spark SQL》议题的分享。背景相信使用 Apache Spark 进行数据分析的同学对 Spark 中的 Broadcast Join 比较熟悉，其在 Join 之前会把一端比较小的表广播到参与 Join 的 worker 端，具体如下：如果想及时了解Spark、Hadoop或者HBase相关的文

w397090770 4年前 (2020-07-05) 2065℃ 0评论4喜欢

Flink

Apache Flink 1.2.1正式发布

经过一个多月的投票，Apache Flink 1.2.1终于正式发布了。看这个版本就知道，Apache Flink 1.2.1仅仅是对 Flink 1.2.0进行一些Bug修复，不涉及重大的新功能。推荐所有的用户升级到Apache Flink 1.2.1。大家可以在自己项目的pom.xml文件引入以下依赖：[code lang="xml"]<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</art

w397090770 7年前 (2017-05-04) 1646℃ 0评论6喜欢

Akka

Akka学习笔记：子Actor和Actor路径

　　Akka学习笔记系列文章：　　《Akka学习笔记：ACTORS介绍》　　《Akka学习笔记：Actor消息传递(1)》　　《Akka学习笔记：Actor消息传递(2)》　　　　《Akka学习笔记：日志》　　《Akka学习笔记：测试Actors》　　《Akka学习笔记：Actor消息处理-请求和响应(1) 》　　《Akka学习笔记：Actor消息处理-请求和响应(2) 》　　《Akka学

w397090770 10年前 (2014-12-22) 5653℃ 0评论8喜欢